Passaggio oltre il Prompting Generico

Ottimizzazione tramite Fine-Tuning e Architetture Specializzate

1. Oltre il Prompt

Mentre il "Few-Shot" prompting è un punto di partenza potente, scalare le soluzioni AI richiede spesso il passaggio a Fine-Tuning Supervisionato. Questo processo incorpora conoscenze o comportamenti specifici direttamente nei pesi del modello.

La Scelta: Dovresti eseguire il fine-tuning solo quando i miglioramenti nella qualità della risposta e la riduzione dei costi in token superano l'importante sforzo computazionale e di preparazione dei dati richiesto.

$Costo = Token \times Tasso$

2. La Rivoluzione degli SLM

Modelli Linguistici Piccoli (SLM) sono varianti altamente efficienti e ridotte rispetto ai loro omologhi di grandi dimensioni (ad esempio, Phi-3.5, Mistral Small). Sono addestrati su dati altamente curati e di alta qualità.

Compromessi: Gli SLM offrono una latenza significativamente più bassa e consentono il deploy sul bordo (esecuzione localmente sui dispositivi), ma sacrificano l'intelligenza "umana" generica e ampia presente nei grandi LLM.

3. Architetture Specializzate

Misto di Esperti (MoE): Una tecnica che scala la dimensione totale del modello mantenendo l'efficienza computazionale durante l'inferenza. Solo un sottoinsieme di "esperti" viene attivato per ogni token (ad esempio, Phi-3.5-MoE).
Multimodalità: Architetture progettate per elaborare testo, immagini e talvolta audio contemporaneamente, ampliando gli scenari d'uso al di là della generazione di testo (ad esempio, Llama 3.2).

L'Gerarchia dell'Efficienza

Prova sempre prima Engineering dei Prompt primo. Se questo fallisce, implementa RAG (Generazione Aumentata con Recupero). Usa Fine-Tuning solo come ultimo passo avanzato di ottimizzazione.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.